Domain adaptation methods reduce domain shift typically by learning domain-invariant features. Most existing methods are built on distribution matching, e.g., adversarial domain adaptation, which tends to corrupt feature discriminability. In this paper, we propose Discriminative Radial Domain Adaptation (DRDR) which bridges source and target domains via a shared radial structure. It's motivated by the observation that as the model is trained to be progressively discriminative, features of different categories expand outwards in different directions, forming a radial structure. We show that transferring such an inherently discriminative structure would enable to enhance feature transferability and discriminability simultaneously. Specifically, we represent each domain with a global anchor and each category a local anchor to form a radial structure and reduce domain shift via structure matching. It consists of two parts, namely isometric transformation to align the structure globally and local refinement to match each category. To enhance the discriminability of the structure, we further encourage samples to cluster close to the corresponding local anchors based on optimal-transport assignment. Extensively experimenting on multiple benchmarks, our method is shown to consistently outperforms state-of-the-art approaches on varied tasks, including the typical unsupervised domain adaptation, multi-source domain adaptation, domain-agnostic learning, and domain generalization.
translated by 谷歌翻译
To build Video Question Answering (VideoQA) systems capable of assisting humans in daily activities, seeking answers from long-form videos with diverse and complex events is a must. Existing multi-modal VQA models achieve promising performance on images or short video clips, especially with the recent success of large-scale multi-modal pre-training. However, when extending these methods to long-form videos, new challenges arise. On the one hand, using a dense video sampling strategy is computationally prohibitive. On the other hand, methods relying on sparse sampling struggle in scenarios where multi-event and multi-granularity visual reasoning are required. In this work, we introduce a new model named Multi-modal Iterative Spatial-temporal Transformer (MIST) to better adapt pre-trained models for long-form VideoQA. Specifically, MIST decomposes traditional dense spatial-temporal self-attention into cascaded segment and region selection modules that adaptively select frames and image regions that are closely relevant to the question itself. Visual concepts at different granularities are then processed efficiently through an attention module. In addition, MIST iteratively conducts selection and attention over multiple layers to support reasoning over multiple events. The experimental results on four VideoQA datasets, including AGQA, NExT-QA, STAR, and Env-QA, show that MIST achieves state-of-the-art performance and is superior at computation efficiency and interpretability.
translated by 谷歌翻译
现有的基于3D骨架的动作识别方法通过将手工制作的动作功能编码为图像格式和CNN解码,从而达到了令人印象深刻的性能。但是,这种方法在两种方面受到限制:a)手工制作的动作功能很难处理具有挑战性的动作,b)通常需要复杂的CNN模型来提高动作识别精度,这通常会发生重大计算负担。为了克服这些局限性,我们引入了一种新颖的AFE-CNN,它致力于增强基于3D骨架的动作的特征,以适应具有挑战性的动作。我们提出了功能增强从关键关节,骨向量,关键框架和时间视角的模块,因此,AFE-CNN对摄像头视图和车身大小变化更为强大,并显着提高了对挑战性动作的识别精度。此外,我们的AFE-CNN采用了轻巧的CNN模型以增强动作功能来解码图像,从而确保了比最新方法低得多的计算负担。我们在三个基于基准骨架的动作数据集上评估了AFE-CNN:NTU RGB+D,NTU RGB+D 120和UTKINECT-ACTION3D,并取得了广泛的实验结果,这表明我们对AFE-CNN的出色表现。
translated by 谷歌翻译
大规模的视觉预训练在各种下游任务中都表现出了令人印象深刻的进步。现有方法主要是通过图像和文本的全局表示形式的相似性或对图像和文本特征上的高级交叉模式关注来对跨模式对齐进行建模。但是,由于只有全局图像文本对齐信息,因此他们无法明确学习视觉区域和文本短语之间的细粒语义对齐。在本文中,我们介绍了Loupe,这是一种精细的语义一致性视觉语言预训练框架,该框架从新颖的游戏理论互动的角度学习了细粒度的语义对齐。为了有效地计算游戏理论相互作用,我们进一步提出了一种不确定性感知的神经Shapley交互学习模块。实验表明,Loupe在图像文本检索基准测试中实现了最新的。如果没有任何对象级的人类注释和微调,Loupe就可以在对象检测和视觉接地方面实现竞争性能。更重要的是,Loupe从大规模的原始图像文本对学习细粒语义的新方向。
translated by 谷歌翻译
了解人类情绪是智能机器人提供更好的人类机器人相互作用的关键能力。现有作品仅限于修剪视频级别的情感分类,无法找到与情感相对应的时间窗口。在本文中,我们介绍了一项新任务,称为视频中的时间情感本地化(TEL),该任务旨在检测人类的情感并将其相应的时间边界定位在带有校准字幕的未修剪视频中。与时间动作本地化相比,TEL提出了三个独特的挑战:1)情绪的时间动态极为多样; 2)情绪提示都嵌入了外观和复杂的情节中; 3)细粒度的时间注释是复杂且劳动密集型的。为了应对前两个挑战,我们提出了一个新颖的扩张上下文集成网络,该网络与粗细的两流体系结构。粗流通过建模多粒性时间上下文来捕获各种时间动力学。细流通过推理从粗流的多晶格时间上下文之间的依赖性来实现复杂的理解,并将它们自适应地集成到细粒度的视频段特征中。为了应对第三个挑战,我们引入了跨模式共识学习范式,该范式利用了对齐视频和字幕之间的固有语义共识,以实现弱监督的学习。我们为新的测试集提供了3,000个手动注释的时间边界,因此可以对TEL问题进行未来的研究进行定量评估。广泛的实验显示了我们方法对时间情绪定位的有效性。这项工作的存储库位于https://github.com/yyjmjc/temporal-emotion-localization-in-videos。
translated by 谷歌翻译
3D姿势估计最近在计算机视觉领域中获得了重大利益。现有的3D姿势估计方法非常依赖大尺寸井井有条的3D姿势数据集,并且由于训练集中的3D姿势的多样性有限,它们在看不见的姿势上的模型概括不佳。在这项工作中,我们提出了一种新型的人类姿势发生器Posegu,它仅能访问少量的种子样本,同时为反事实风险最小化以追求无偏见的评估目标。广泛的实验表明,在三个流行的基准数据集上,几乎所有正在考虑的最先进的3D人类姿势方法。经验分析还证明,Posegu会产生3D姿势,具有改进的数据多样性和更好的概括能力。
translated by 谷歌翻译
从\ emph {nocedended}点云中重建3D几何形状可以使许多下游任务受益。最近的方法主要采用神经网络的神经形状表示,以代表签名的距离字段,并通过无签名的监督适应点云。但是,我们观察到,使用未签名的监督可能会导致严重的歧义,并且通常会导致\ emph {意外}故障,例如在重建复杂的结构并与重建准确的表面斗争时,在自由空间中产生不希望的表面。为了重建一个更好的距离距离场,我们提出了半签名的神经拟合(SSN拟合),该神经拟合(SSN拟合)由半签名的监督和基于损失的区域采样策略组成。我们的关键见解是,签名的监督更具信息性,显然可以轻松确定对象之外的区域。同时,提出了一种新颖的重要性抽样,以加速优化并更好地重建细节。具体而言,我们将对象空间弹并分配到\ emph {sign-newand}和\ emph {sign-unawern}区域,其中应用了不同的监督。此外,我们根据跟踪的重建损失自适应地调整每个体素的采样率,以便网络可以更多地关注复杂的拟合不足区域。我们进行了广泛的实验,以证明SSN拟合在多个数据集的不同设置下实现最新性能,包括清洁,密度变化和嘈杂的数据。
translated by 谷歌翻译
作为计算机视觉的重要领域,对象跟踪形成了两个独立的社区,分别研究单个对象跟踪(SOT)和多个对象跟踪(MOT)。但是,由于两个任务的不同训练数据集和跟踪对象,因此在一个跟踪方案中的当前方法不容易适应另一种方法。尽管unitrack \ cite {wang2021Diverent}表明,具有多个头部的共享外观模型可用于处理单个跟踪任务,但它无法利用大规模跟踪数据集进行训练,并且在单个对象跟踪上执行良好的训练。在这项工作中,我们提出了统一的变压器跟踪器(UTT),以通过一个范式在不同方案中解决跟踪问题。在我们的UTT中开发了轨道变压器,以跟踪SOT和MOT中的目标。利用目标和跟踪框架功能之间的相关性以定位目标。我们证明SOT和MOT任务都可以在此框架内解决。该模型可以同时通过在单个任务数据集中优化SOT和MOT目标,同时端到端训练。广泛的实验是在几个基准测试基准上进行的,该基准具有在SOT和MOT数据集上训练的统一模型。代码将在https://github.com/flowerfan/trackron上找到。
translated by 谷歌翻译
手套通过利用来自Word Co-Feationence矩阵的统计信息来学习Word Embeddings。然而,矩阵中的字对对从预定义的本地上下文窗口中提取,这可能导致有限的字对对和潜在的语义无关词对。在本文中,我们提出了Semglove,其中从伯爵蒸馏到静态手套单词嵌入。特别是,我们提出了两种模型来提取基于屏蔽语言模型或伯特的多针注意重量的共发生统计。我们的方法可以在不受本地窗口假设的情况下提取字对对,并且可以通过直接考虑词对之间的语义距离来定义共发生权重。几个单词相似性数据集和四个外部任务的实验表明semglove可以优于手套。
translated by 谷歌翻译
In this paper, we introduce ActBERT for self-supervised learning of joint video-text representations from unlabeled data. First, we leverage global action information to catalyze mutual interactions between linguistic texts and local regional objects. It uncovers global and local visual clues from paired video sequences and text descriptions for detailed visual and text relation modeling. Second, we introduce a TaNgled Transformer block (TNT) to encode three sources of information, i.e., global actions, local regional objects, and linguistic descriptions. Global-local correspondences are discovered via judicious clues extraction from contextual information. It enforces the joint video-text representation to be aware of fine-grained objects as well as global human intention. We validate the generalization capability of ActBERT on downstream video-and-language tasks, i.e., text-video clip retrieval, video captioning, video question answering, action segmentation, and action step localization. ActBERT significantly outperforms the stateof-the-art, demonstrating its superiority in video-text representation learning.actbct * This work was done when Linchao Zhu visited Baidu Research. Yi Yang is the corresponding author.
translated by 谷歌翻译